用于机器人操纵的多进球政策学习具有挑战性。先前的成功使用了对象的基于状态的表示或提供了演示数据来促进学习。在本文中,通过对域的高级离散表示形式进行手工编码,我们表明,可以使用来自像素的Q学习来学习达到数十个目标的策略。代理商将学习重点放在更简单的本地政策上,这些政策是通过在抽象空间中进行计划来对其进行测序的。我们将我们的方法与标准的多目标RL基线以及在具有挑战性的块构造域上利用离散表示的其他方法进行了比较。我们发现我们的方法可以构建一百多个不同的块结构,并证明具有新物体的结构向前转移。最后,我们将所学的政策部署在真正的机器人上的模拟中。
translated by 谷歌翻译
基于2D图像的3D对象的推理由于从不同方向查看对象引起的外观差异很大,因此具有挑战性。理想情况下,我们的模型将是对物体姿势变化的不变或等效的。不幸的是,对于2D图像输入,这通常是不可能的,因为我们没有一个先验模型,即在平面外对象旋转下如何改变图像。唯一的$ \ mathrm {so}(3)$ - 当前存在的模型需要点云输入而不是2D图像。在本文中,我们提出了一种基于Icosahedral群卷积的新型模型体系结构,即通过将输入图像投影到iCosahedron上,以$ \ mathrm {so(3)} $中的理由。由于此投影,该模型大致与$ \ mathrm {so}(3)$中的旋转大致相当。我们将此模型应用于对象构成估计任务,并发现它的表现优于合理的基准。
translated by 谷歌翻译
合并对称性可以通过定义通过转换相关的数据样本的等效类别来导致高度数据效率和可推广的模型。但是,表征转换如何在输入数据上作用通常很困难,从而限制了模型模型的适用性。我们提出了编码输入空间(例如图像)的学习对称嵌入网络(SENS),我们不知道转换的效果(例如旋转),以在这些操作下以已知方式转换的特征空间。可以通过模棱两可的任务网络端对端训练该网络,以学习明确的对称表示。我们在具有3种不同形式的对称形式的模棱两可的过渡模型的背景下验证了这种方法。我们的实验表明,SENS有助于将模棱两可的网络应用于具有复杂对称表示的数据。此外,相对于全等级和非等价基线的准确性和泛化可以提高准确性和概括。
translated by 谷歌翻译
In this work, we seek to build effective code-switched (CS) automatic speech recognition systems (ASR) under the zero-shot setting where no transcribed CS speech data is available for training. Previously proposed frameworks which conditionally factorize the bilingual task into its constituent monolingual parts are a promising starting point for leveraging monolingual data efficiently. However, these methods require the monolingual modules to perform language segmentation. That is, each monolingual module has to simultaneously detect CS points and transcribe speech segments of one language while ignoring those of other languages -- not a trivial task. We propose to simplify each monolingual module by allowing them to transcribe all speech segments indiscriminately with a monolingual script (i.e. transliteration). This simple modification passes the responsibility of CS point detection to subsequent bilingual modules which determine the final output by considering multiple monolingual transliterations along with external language model information. We apply this transliteration-based approach in an end-to-end differentiable neural network and demonstrate its efficacy for zero-shot CS ASR on Mandarin-English SEAME test sets.
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
大多数最先进的定位算法都依赖于稳健的相对姿势估计和几何验证来获得移动的对象不可知的摄像机在复杂的室内环境中姿势。但是,如果场景包含重复的结构,例如书桌,桌子,盒子或移动的人,则这种方法容易犯错。我们表明,可移动对象包含了不可忽略的本地化误差,并提出了一种新的直接方法,以预测六度自由(6DOF)更加坚固。我们为定位管道INLOC配备了实例分割网络yolact ++。动态对象的口罩用于相对姿势估计步骤和摄像头姿势建议的最终分类中。首先,我们过滤出放置在动态对象的掩模上的匹配。其次,我们跳过了与移动对象相关的区域上查询和合成图像的比较。此过程导致更强大的本地化。最后,我们描述并改善了由合成图像和查询图像之间的基于梯度的比较引起的错误,并发布了新的管道,以模拟MatterPort扫描中具有可移动对象的环境。所有代码均可在github.com/dubenma/d-inlocpp上获得。
translated by 谷歌翻译
有限的公开数据可以支持恶意软件分析技术的研究。特别是,几乎没有由杜鹃/斗篷等丰富的沙盒生成的公开可用数据集。使用动态沙箱的好处是对目标机中文件执行的逼真模拟并获得该执行日志。机器可以被恶意软件感染,因此很有可能在执行日志中捕获恶意行为,从而使研究人员可以详细研究这种行为。尽管随后对日志信息的分析在工业网络安全后端被广泛介绍,但据我们所知,仅在学术界投入了有限的努力,以使用最先进的技术提高此类日志分析功能。我们使此示例数据集可用来支持设计新的机器学习方法以进行恶意软件检测,尤其是用于自动检测通用恶意行为。该数据集是在Avast软件和捷克技术大学-AI中心(AIC)之间合作的。
translated by 谷歌翻译
如果未来的AI系统在新的情况下是可靠的安全性,那么他们将需要纳入指导它们的一般原则,以便强烈地认识到哪些结果和行为将是有害的。这样的原则可能需要得到约束力的监管制度的支持,该法规需要广泛接受的基本原则。它们还应该足够具体用于技术实施。本文从法律中汲取灵感,解释了负面的人权如何履行此类原则的作用,并为国际监管制度以及为未来的AI系统建立技术安全限制的基础。
translated by 谷歌翻译
机器学习和计算机视觉是动态增长的领域,事实证明,它们能够解决非常复杂的任务。它们也可以用于监测蜜蜂菌落和检查其健康状态,在这种情况至关重要之前,可以确定潜在的危险状态,或者更好地计划定期的蜜蜂殖民地检查,从而节省大量费用。在本文中,我们介绍了用于蜜蜂监视的最先进的计算机视觉和机器学习应用程序。我们还证明了这些方法的潜力,作为自动蜜蜂计数器算法的一个例子。该论文针对的是兽医和养育专业人士和专家,他们可能不熟悉机器学习来向他们介绍其可能性,因此,每个应用程序都通过与基本方法相关的简短理论介绍和动机来打开。我们希望本文能够激发其他科学家将机器学习技术用于蜜蜂监测中的其他应用。
translated by 谷歌翻译
我们研究了高度实用但相对研究的潜在域适应性问题,其中应将源模型适应包含未标记域的混合域和域 - IRRERRELERRELERRELERVANS的目标数据集。此外,受数据隐私要求以及对适应本地数据分布的嵌入式和资源约束设备的需求的激励,我们专注于设置无馈源源域的适应到源数据集,也可以返回传播。我们的解决方案是元学习网络,能够嵌入混合相关目标数据集,并使用交叉注意力动态适应目标示例。最终的框架可导致强大的ERM基线的一致改进。我们还表明,我们的框架有时甚至在域监督适应的上限上有所改善,在这种适应中,仅提供与域相关的实例进行适应。这表明人类注释的域标签可能并不总是最佳的,并提高了通过自动实例选择做得更好的可能性。
translated by 谷歌翻译